Mutation-based fuzzing has become one of the most common vulnerability discovery solutions over the last decade. Fuzzing can be optimized when targeting specific programs, and given that, some studies have employed online optimization methods to do it automatically, i.e., tuning fuzzers for any given program in a program-agnostic manner. However, previous studies have neither fully explored mutation schemes suitable for online optimization methods, nor online optimization methods suitable for mutation schemes. In this study, we propose an optimization framework called SLOPT that encompasses both a bandit-friendly mutation scheme and mutation-scheme-friendly bandit algorithms. The advantage of SLOPT is that it can generally be incorporated into existing fuzzers, such as AFL and Honggfuzz. As a proof of concept, we implemented SLOPT-AFL++ by integrating SLOPT into AFL++ and showed that the program-agnostic optimization delivered by SLOPT enabled SLOPT-AFL++ to achieve higher code coverage than AFL++ in all of ten real-world FuzzBench programs. Moreover, we ran SLOPT-AFL++ against several real-world programs from OSS-Fuzz and successfully identified three previously unknown vulnerabilities, even though these programs have been fuzzed by AFL++ for a considerable number of CPU days on OSS-Fuzz.
translated by 谷歌翻译
在本文中,我们讨论了在构建基于AI的交互式系统中应用无监督的异常检测的潜力,该系统与领域专家合作处理高度上下文情况,即人类的交流。我们通过为执行教练开发计算支持工具的经验来实现这种利用无监督的异常检测方法,这教会了我们提供可解释的结果的重要性,以便专家教练可以考虑结果和背景。这种方法背后的关键思想是为专家教练留出空间来释放其开放式解释,而不是简化社交互动的本质,即通过常规监督算法可以解决的明确定义的问题。此外,我们发现这种方法可以扩展到培养新手教练。通过促使他们解释系统的结果,它可以为教练提供教育机会。尽管该方法的适用性应在其他领域进行验证,但我们认为,利用无监督的异常检测来构建基于AI的交互式系统的想法将揭示人类交流的另一个方向。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们介绍了我们的案例研究,旨在帮助专业评估者在人类评估中做出决定,他们在其中对被评估者进行访谈并评估其对某些工作角色的适用性。我们与两名工业评估者的研讨会表明,可以从面试视频中提取非语言评估的计算系统对评估者的支持将对他们的决策做出有益。作为响应,我们使用多模式行为特征(例如面部关键点,姿势,头姿势和凝视)基于无监督的异常检测算法开发了这样的系统。此外,我们使系统能够输出每个功能导致检测线索的异常值的贡献,以增强其可解释性。然后,我们通过使用20个实际评估访谈视频并涉及两位评估员,以研究系统输出的有效性,以检查系统输出的有效性。结果表明,通过说明其评估者产出的信息性,以可解释的方式使用无监督的异常检测的优势。我们的方法以人为组合中的观察和解释分离为基础,它将促进在高度背景领域(例如人类评估)中的人类决策,同时保持其对系统的信任。
translated by 谷歌翻译